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(5) Verfahren zur Berechnung einer Sprachaktivitatsentscheidung (Voice Activity Detector) 

(57) Die Erfindung betrifft ein Verfahren 2ur Bestimmung 
der Sprachaktivitat in einem Signalabschnitt eines Audio- 
Signals, wobei das Ergebnis, ob Sprachaktivitat im be- 
trachteten Signalabschnitt vorliegt sowohl von der spek- 
tralen als euch von der zeitlichen Stationaritat des Signal- 
abschnitts und/oder von vorangegangenen Signalab- 
schnitten abhangt, wobei das Verfahren in einer ersten 
Stufe beurteilt, ob im betrachteten SignalebschniTt spek- 
trale Stationaritat vorliegt, und da& in uiner zweiten Stufe 
beurteilt wird, ob im betrachteten Signalabschnitt zeitli- 
che Stationaritat vorliegt, wobei die endgultige Entschei- 
dung uber das Vorhandensein von Sprachaktivitat im be- 
trachteten Signalabschnitt von den Ausgangswerten der 
beiden Stufert abhangig ist. 
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Beschreibung 

[0001] Die vorliegende Erfindung belriffl cin Verfahren zur Bestimmung der Sprachaktivitat in eincm Signalabschnitt 
eines Audio-Signals, wobci das Ergebnis, ob Sprachaktivitat iin belrachtelen Signalabschnitt vorliegt sowohl von der 
5 spckrralen als auch von der zeit lichen Stationaritat des Signalabschnitts und/oder von vorangegangenen Signalahschnit- 
ten abhangt. 

[0002] Im Bereich der Sprachubertragung und im Bereich der digitalen Signal- und Sprachspeicherung ist die Anwen- 
dung spezielier digitaler Comerungs verfahren zu Datenkompressionszwecken weit verbreitet und aufgrund der hohen 
Dalenautkommen sowic der begrenzten Ubertragungskapazitaten zwingend notwendig. Ein fur die Obertragung von 
10 Sprache besonders geeignetes Verfahren ist das aus der US 4133976 bekannte Code Excited Linear Prcdiction(CELP)- 
Verfahren. Bei diesem Verfahren wird das Sprachsignal in kleinen zeit lichen Abschnitten ("Sprachrahmen", "Rah men", 
"zeitlicher Ausschnitt", "zeitlicher AbschnitO von jeweils ca. 5 ms bis 50 ms Lange codiert und Ubertragen. Jeder dieser 
zeit lichen Abschnitte hzw. Rahinen wird nichr. exakt, sondern nur durch eine Annaherung an die tatsachliche Signal form 
dargestellt. Die den Signalabschnitt beschreibende Approximation wirdabei im wesentlichen aus drei Kornponenten ge- 
15 wonnen, die Decoder- Sei tig zur Rekonslruktion des Signals verwendet werden: Erstens einem Filter, das die spcktrale 
Struktur des jeweiligen Signalausschnittes annahemd beschreibt, zweitens einem sog. Anregungssignal, das durch dieses 
Filter gefiUert wird, und drittens einem \ferstarkungsfaktor ("gain"), mildem das Anregungssignal vor der Filtering mui- 
tipliziert wird. Der Verstarkungsfaktor ist fur die Lautstarkc des jeweiligen Abschnitts des rekpnstruicrten Signals ver- 
antwortlich. Das Ergebnis dieser FiLterung, stelll dann die Approximation des zu ubertragenden Signalstuckes dar. Fur je- 
20 den Abschnitt muB die Information liber die Filtereinsiellungen und die Information (iber das zu verwendende Anre- 
gungssignal und dessen Skalierung ("gain"), die die Lautstarke beschreibl, Ubertragen werden. Im allgemeinen werden 
diese Parameter aus vcrschicdenen, dem Encoder und Decoder in identischen Kopien vorliegenden Codebucbern gewon- 
nen, so daB zur Rekonstruktion nur die Nummer der am besien geeigneten Codebucheintrage ubertragen werden muB. 
Bei der Codierung eines Sprachsignals sind also fur jeden Abschnitt diese am besien geeignelen Codebucheintrage zu 
25 bestimmen, wobei alle relevanten Codebuche intrage in alien relevanten Kombinationen durchsucht werden, und dieje- 
nigen Einlrage ausgewahll werden, die die im Sinne eines sinnvollen AbslandsmaBes kleinsie Abweichung zum Origi- 
nalsignal befem. 

[0003] Es existieren verschiedene Verfahren zur Optirnierung der Struktur der Codebucher (z. B. Mehrstufigkeit, Li- 
nearePradiktion basierend auf den vergangenen Werten, spezifische AbstandsmaBe, optimierte Suchverfahren, etc.). Au- 
30 Berdem gibt es verschiedene Verfahren, die den Aufbau und das Durchsuchungsverf ahren fur die Bestimmung der Anre- 
gungsvektoren bescbreiben. 

[0004] Haufig stelit sich die Aufgabe, den Charakter des im vorlicgendcn Rahmen befindliche Signales zu klassifizie- 
ren, damit die Details der Codierung, z. B. der zu verwendenden Codebucher, etc. bestirnmt werden konnen. Dabei wird 
haufig auch eine sog. Sprach-Akuvitats-Entscheidung ("voice activity detection", VAD) getroffen, die angibt, ob der ak- 

35 tuell vorliegende Signal auschnitt ein Sprachsegment oder kein Sprachsegment enthalt. Eine solche Entscheidung muss 
auch bei Anwesenheit. von Hintergrundgerauschen rich tig getroffen werden, was die Klassifikation ersebwert. 
[0005] In dem hier vorgeslellten Ansatz wird die Entscheidung der VAD gleichgesetzt mil einer Entscheidung iiber die 
Staiionaritat des aktuellen Signals, so dass also das AusmaB der Anderung der wesentlichen Signaleigenschaften als 
Grundlage fur die Bestimmung der Station ari tat und der damit zusammenhangenden Sprachaktivitat verwendet wird. In 

40 diesem Sinne isi dann z. B. ein Signalbereich ohne Sprache, der z. B . nur ein gleichbleibend lautes und spektral sich nicht 
oder nur gcring anderndes Hintergrundgerausch aufweist, als stalionar zu bezeichnen. Umgekehrt ist ein Signalaus- 
schnilt mil einem Sprachsignal (mit und ohne Anwesenheit des Hintergrundgerausches) als nicht stalionar, also in statio- 
ns zu bezeichnen. Im Sinne der VAD wird also beim hier vorgesteliten Verfahren das Ergebnis "instationiir" mit Sprach- 
aktivitat gleichgesetzt, wahrend "stationar" bedeutet, dass keine Sprachaktivitat vorliegt. 

45 [0006] Da die Stationarital eines Signals keine eindeutig festgelegte MeBgrdfte ist, wird sie nachfolgend genauer defi- 
nierl. 

[0007] Das vorgestellte Verfahren geht dabei davon aus, dass cine Bestimmung der Stationaritat idealcrweise von der 
zeitlichen Anderung des Kurzzeit-Mittelwertes der Energie des Signals ausgehen sollte. Eine solche SchStzung ist aber 
im allgemeinen nicht direkt moglich, denn sie kann durch verschiedene storende Randbedingungen beeinfluBt werden. 

50 So hangt die Energie z. B. auch von der absoluten Lautstarkc des Sprechcrs ab, die auf die Entscheidung aber keinen Ein- 
fluB haben sollie. Dariiber hinaus wird der Energiewert z. B. auch durch das Hintergrundgerausch beeinnuBl. Der Einsatz 
eines auf einer Energiebetrachtung basierenden Kriteriums ist also nur sinnvoli, wenn der EinfluB dieser moglichen st6~ 
renden Effekte ausgeschlossen werden kann. Aus diesem Grund ist das Verfahren zweistung gestaltet: In der ersten Stufe 
wird bereits eine giiltige Entscheidung uber die Stationaritat getroffen. Falls in der ersten Stufe auf "stationar" entschie- 

55 den wird, so wird das diesen stationaren Signalabschnitt beschreibende Filter neu berechnel und somit an das jeweils 
letzte stationare Signal angepalit. In der zweiten Stufe wird diese Entscheidung jedoch noch einmal nach einem andcrcn 
Kriterien getroffen, und damit unter Verwendung der in der ersten Stufe bereitgestellten Werte kontrolliert und gegehe- 
ncnfalls abgeandert. Dicsc zweite Stufe arbeitet dabei unter Verwendung eines EnergiemaBes. Die zweitc Stufe hefert 
auBerdcm cin Ergebnis, das von der ersten Stufe bei der Analyse des nachfolgenden Sprachrahmens beriicksichugt wird. 

60 Auf diese Weise besteht eine Riickkopplung zwischen diesen beiden Stufen, die sicherstelll. das die von der ersten Stufe 
gelieferten Werte eine optimale Grundlage fur die Entscheidung der zweiten Stufe bilden. 
[0008] Die Arbeitsweisc der beiden Stufen wird im folgenden einzeln vorgestellL 

[0009] Zunachsr wird die erste Stufe vorgeslellt, die eine ersle Entscheidung basierend auf der Unlersuchung der spek- 
iralen Stationaritat liefert. Betrachtet man das Frecjuenzspektrum eines Signaiahschnitts, so weist es fur den betrachteten 
65 Zeitraum eine charakierisiische Form auf. Ist die Anderung der Frequenzspektren zeitlich aufeinanderfolgender Signal- 
abschnitte hinreichend gering, d. b. die chafakteristische Form der jeweiligen Spektren bleibt mehr oder weniger erhal- 
tcn. so kann man von spcktraler Stationarital sprechen. 

[0010] Das Ergebnis der Ersten Stufe wird mit STAT1 bezeichnet und das Ergebnis der zweiten Stufe mil STAT2. 
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STAT2 cnt spricht auch dcr endgiilugen Entscheidung des hier vorgestellten VAD-Verfahrens. 1m folgenden werden Li- 
sten mit mehreren Werten in der Form "Listennanie[0. .N-1J" beschrieben, wobei aber Listenname[k], k = 0. . .N-l ein 
einzelner Wen, nanilich der Wert mit dem Index k der Wertelisie "Listenname" bezeichnet wird. 

Spektrale Stationaritat (1 . Stufe) 
[0011] Diese ersie Stufe des Stationaritatsverfahrens erhalt als Eingangswerte die folgenden GrfiBen: 

- Lincare Pradiktionskoeffizienten des aktuellen Hahmens (LPC_NOWt0. . .ORDER-1 J; ORDER = 14) 

- ein MaB fUr die Stimmhafugkeit des aktuellen Rahmens (STIMMfOO. .1]) 

- Die Anzahl der in der Analyse der zuriickliegenden Rahmen durch die zweile Stufe des Algorithmus als "insta- 
tionar" klassifizierten Rahmen (N.INSTAT2, Werie = 0, 1, 2, usw.) 

- verschiedene fur die zurucklicgenden Rahmen berechnete Wcne (STIMMJVfEM[0. .1], T.PCLSTATl [0. . .OR- 
DER- 1]) 

[0012] Als Ausgangswert liefert die erste Stufe die Werte 

- erste Entscheidung Uber Station aritai: STAT1 (mogliche Werte: "stationax", "instationar") 

- Lineare Pradiktionskoeffizienten des letzten als "slationar" klassifizierten Rahmens (LPC_STAT1) 

T0013J Die Entscheidung der erstcn Stufe basiert primar auf der Beirachiung der sog. spektralen Distanz ("spektralcr 
Abstand", "spektrale Vcrzerrung", engl.: "spectral distortion") zwischen dem aktuellen und dem vorangegangenen Rah- 
men. In die Entscheidung gehen auBerdem auch die Werte eines Stimmhaftigkeitsmafies ein, das fiir die letzten Rahmen 
berechnel wurde. Die fur die Entscheidung verwendeten Schwellen werte werden auBerdem von der Anzahl der unmil- 
telbar zuriickliegenden, in der zweiten Stufe als "stationar" klassifizierten Rahmen (d. h. STAT2 = "stationax") beeinfluBt. 
Die einzelnen Bereehnungen werden iin folgenden erlaulerL: 

a) Berechnung dcr spektralen Distanz 
[0014] Die Berechnung ergibt sich gem&B: 
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[0015] Dabei bezeichnet 
r 

i 



10 log 



den logarithmierten EinhiiUendenfrequenzgang des aktuellen Signalabschnitts, der aus LPC_NOW berechnel wird. 
1 



10 log 



bezeichnet den logarilhuuertcn Einhiillendenfrequenzgang des vorangegangenen Signalabschnitts, der aus LPC_STAT1 
berechhet wird. 

[0016] Dcr Wert, von SD wird nach der Berechnung nach unten auf einen Minimalweri von 1.6 begrenzL Der so be- 
grenzie Wert wird daon als aklueller Wert in eine Liste der vergangenen Werte SD_MEM[0. .9] gespeichert, wobei der 
am langsten zuruckliegendc Wert zuvor aus der Liste entfernl wurde. 

1 0017] Neben dem aktuellen Wert fur SD wird auch ein Mittclwert. der vergangenen 10 Werte von SD berechnet, der in 
SD_MEAN gespeichert wird, wobei zur Berechnung die Werte aus SD_MEM verwendct werden. 

b) Berechnung der mirtleren Stirnmhaftigkeit 

» 

[0018] Als Eingangswert in die erste Stufe wurden auch die Ergebnisse eines Stiminhaftigkeitsm asses (STIMMfO. . 1]) 
bereitgestellt. (Diese Werte liegen zwiscben 0 und 1 und wurden zuvor nach 
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berechnet, Durch Bildung des kurzzeitigen Mitielwertes von % "ber den letzten 10 SignalabschniUen (m^r: Index des 
10 momentanen Signalabscbni Us) folgen die Werte: 

STIMM [ k] = , k=0, 1 

15 wobei fur jeden Rahmen zwei Werte berechnet werden: 

SHMM[0] fur die erste Rahmenhalftc, und STIMM[ 1] fur die zweite Rahmenhalfte. Hat SHMM[k] einen AVfert nahe 0, 
so ist das Signal eindeutig stimmlos, wahrend ein Wert nahe 1 einen eindeutig stimmhaften Sprachbereich charakteri- 
siert.) 

[0019] Urn zunachst Storungen im Sonderfall sehr leiser Signale (z. B. vor Signalbeginn) auszuschlieBen, wcrdcn die 
20 daraus resulticrenden sehr klcinen Wene von SHMM[k] auf 0.5 gesetzt, namlich dann. wenn ihr Wert zuvor unter 0.05 
Lag(furk = 0 ? 1). 

[0020] Die so begrenzten Werte werden dann als akiuellste Werte an dcr S telle 19 in eine Liste der vergangenen Werte 
STIMM_MEM[0. .19] gespeichert, wobei die am langsten zuriickliegenden Werte zuvor aus der Liste entfernl wurden. 
[0021] Uber die zuriickliegenden 10 Werte von STTMM_MEM[ ] wird nun gemittelt, und das Ergebnis wird in 
25 STTMM_MEAN abgelegt. 

[0022] Die leizten vier Werte von STTMM_MEM, nainlich die Werle ST3MM_MEM[16] bis STIMM_MEM(19] wer- 
den noch cinmal gemittelt und in STTMM4 gespeichert. 



c) Beriicksichtigung der Anzabl eventuell vorliegender vereinzelter "stimmhafr-Rahrnen 



[0023] SoJUen bei der Analyse der zuriickliegenden Rahmen vereinzclt instationare Rahmen aufgetreten sein, so wird 
dies anhand des Wertes von NJNSTAT2 erkannu In diesem Fall liegt ein Ubergang in den "stationaV'-Zustand nur einigc 
wenige Rahmen zuriick. Die fur die zweite Stufe notwendigen LPC_STAT1 [ > Werte, die in der ersten Stufe bereitge- 
stcllt werden, sullen in diesem Ubergang sbereieh aber noch nicht sofort, sondern erst nach einigen abzuwartenden "Si- 
35 cherheitsrahmen" auf einen neuen Wert gebracht werden. Aus diesem Grund wird fiir den Fall, dass N_INSTAT2 > 0 ist, 
der interne Schwellwert TRES_SD_MEAN, der fiir die nachfolgende Entscheidung verwendei wird, auf einen andexen 
Wert gesetzt als sonst: 



TRES_SD_MEAN = 4.0 (wenn N_INSTAT2 > 0) 
TRES_SD_MEAN = 2.6 (sonst) 

d) Entscheidung 

45 [0024] Zur Entscheidung wird zunachst sowohl SD selbst als auch sein kurzzeitbeher Mittelwert iiber den letzten 10 
SignalabschniUen SD_MEAN betrachtet. Liegen beide MaSe SD und SD_MEAN unterhalb eines fur sic spezifischen 
Schwellwertes TRES_SD bzw. TRES_SD_MEAN, so wird spektrale Stationariiat angenommen. 
[0025] Konkret gill fur die Schwellenwerle: 

50 TOES _SD = 2.6 dB 

TRBS„SD_MEAN = 2.6 oder 4.0 dB (vgl. c) 

und es wird enischieden 

55 

S'lATl = "staUonar'" wenn 

(SD < TRES_SD) UND (SD _MEAN < TRES_SD_MEAN), 
STAT1 = ,, instat!onar ,, (sonst). 

60 [002*] Innerhalb eines Sprachsignates, das gemaB der Zielsetzung der VAD als "in station aV klassifizieri werden sallie, 
konnen allerdings kurzzeilig auch Abschnitte auftreten, die nach obigem Kriierium als "slationar" betrachtet werden. 
Solche Abschnitte konnen a] ierdings dann iiber das Stimmhaftigkeitsiiiass STIMM_MEAN erkannt und ausgeschlossen 
werden: Falls der aktuelle Rahmen nach obiger Regel als "stationar" klassifiziert wurde, so kann nach folgender Regel 
eine Korrekiur erf olgen: 



STAT1 = "insLauonar" wenn 

(STIMM.MEAN > 0.7) UND (STTMM4 < = 0.56) 
Oder (STIMM_MEAN < 0.3) UND (STIMM4 < = 0.56) 



4 
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oder STO/TN1MEM[19J > 1.5. 

[0027] Damil begt das Ergcbnis der ersten Stufc vor. 

e) Vorbereiten der Wcrte fiir die zweite Stufe 

[0028] Die zweite Stufe arbeitet unter Verwendung einer in dieser Stufe vorbereiteten Liste von Linearen-Pradiktions- 
koeffizienten, die das zuletzt von dieser Stufe als "stationar" klassifiziertc SignaJstiick beschreiben. In diesem Fall wird 
LPC_STAT1 durch das aktueUe LPC_NOW Uberscbrieben (update): 

LPC_STATl[k] = LPC_NOW[k], k = 0. . .ORDER- 1 wenn STAT1 "stationar" 

[0029] Anderenfalls werden die Werte in LPC_STAT1[ ] nicht gcandert und beschreiben somit weitcrhin den letzten 
von der ersten Stufe als "stationar" klassifizierten SignalausschnitL 

Zeitliche Stationaritat (2. Stufe) 



a) Berechnung der Energie des Residualsignals 



to 



15 



[0030] Beirachtet man einen Signalabschnitt im Zeitbereich, so weist es einen fiir den betrachteten Zeitraum charakte- 
risiischen Amplitudes bzw. Energie verlauf auf. Bleibt die Energie zeitlich aufeinanderfolgendcr Signalabschnitte kon- 
stant, bzw. die Abweichung der Energie ist auf ein hinreichend kleines Toleranzintervall begrenzt. so kann man von zeit- 20 
licher Stationaritat sprechen. Das Vorliegen einer zeitlichen Stationaritat wird in der zweiten Stufe analysiert. 
[0031] A Is EingangsgroBen verwendet die zweite Stufe die Werte 

- das aktuelle Sprachsignal in abgetasleter Form (SIGNAL[0. . .FRAME_LEN-1 ] , FRAME_LEN = 240) 

- VAD-Entscheidung der ersten Stufe: STAT1 (mogliche Werte: "stationar'*, "instationar") 25 

- die linearen Pradiklionskoeffizienlen, die den leizi.cn "stalionaren" Rahmen besehrieben (LFC_STAT1[0. .13]) 

- die Energie des Rcsidualsignalcs des vorhcrigen siationarcn Rahmcns (E_RES_REF) 

- Einc Variable ANFANG, die einen Neubeginn der Werteanpassung stcucrt (ANFANG, Werte = "true", "false") 
[0032] ALs Ausgangswert liefert die zweite Stufe die Werte 30 

- abschliessende Entscheidung iiber Stationaritat: STAT2 (mogliche Werte: "stauonar", "instationar") 

- Die Anzahl der in der Analyse der zuriickliegenden Rahmen durch die zweite Stufe des Algorithmus als "insia- 
uonar" klassifizierten Rahniea (NJNSTAT2, Werte = 0, 1, 2, usw.) und die Anzahl der unmiuelbar zuriickliegenden 
stationaren Rahmen N_STAT2 (Werte m 0, 1, 2, usw.). 35 

- Die Variable ANFANG, die ggf . auf einen neuen Wert gesetzt wurde. 

[0033] Zur VAD-Entscheidung der zweiten Stufe wird die zeitliche Anderung der Energie des Residualsignalcs ver- 
wendet, das mil dem an den letzten stationaren Signalabschnitt angepassten LPC-Filters LPC_STATll ] und dem aktu- 
ellen Eingangssignal SIGNAL[ ] berechnet wurde. Dabei gehen sowohl eine Schatzung der zuletzt vorliegenden Restsi- 40 
gnalcnergie E_RES_REF als unterer Referenzwert und ein vomer ausgewahlter Toleranzwert E_TOL in die Entschei- 
dung ein. Der aktuelle Restsignal-Energiewcrt darf dann urn nicht mchr als E_TOL uber dem Referenzwert E_RES_REF 
liegen, wenn das Signal als "stationar" gelten soil. 

[0034] Die Bcsrimmung der relevanten Grossen wird im folgenden dargestellt. 



45 



[0035] Das Eingangssignal SIGNAL[0. . .FRAME_LEN- 1 ] des aktuellen Rahmens wird unter Verwendung der in 
LPC_STAT1[0. . ORDER- 1] gespeicherten Linearen Pradikuonskoeffizienten invers gefUieri.. Das Resultat dieser Filte- 
rung wird als "Rcsidualsigna]" bezeichnet und in SPEECH_RES[0. .FRAME^LEN- 1 J gespeichert 50 
[0036] Darauf wird die Energie E_RES dieses Residualsignals SIGNAL_RES[ ] berechnet: 

E RES = Summe [ SIGNAL RESfk] ■ SIGNAL RES|k]/FRAME LEN), 
k = 0. . .FRAME_LEN-1 

55 

und dann logarilhrnisch dargestellt: 
E_RES = 10 • log (E_RES/E_MAX) , 

wohei 60 
E_MAX = SIGNAL.MAX • SIGNAL MAX 

[0037] SIGNAL.. MAX beschreibt den maximal moglichen Amplitudenwert eines einzelnen Abtaslwertes. Dieser 
Wert ist abhangig von der Implemcntierungsumgebung; in dem der Erfindung zugrundeliegenden Prototyp betrug er bei- 65 
spiels weise 

SKiNAL_MAX = 32767; . 



5 
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f. 



. in anderen Anwendungsfallen ist gegebenenfalls z. B. 
SJGNAL_MAX « 1.0 

5 

zu setzen. 

[0038] Der so berechnete Wert E_RES ist in dB beziiglich des Maximalwertes ausgedruckt. Er liegt somii stets unter- 
halb von 0, typische .Werte betragen etwa -100 dB fdr Signale mit sehr niedrigcr Encrgie und etwa -30 dB fur Signale 
mil vergleichsweise hoher Energie. 
1 1) [0039] Falls der berechnete Wert. E_RES sehr klein isu so liegt ein Anfangszustand vor, und der Wert von E_RES wird 
nach unten begrenzt: 

wenn (R.RES < -200): 
E_RES = -200 
15 ANFANG = true 

[0040] Diese Bedingung isl effektiv nur zu Beginn des Algorithmus oder bei sehr langen, sehr ruhigen Pausen erfuii- 
bar, so dass nur zu Beginn der Wert ANFANG = true gesetzt werden kann. 
[0041] Der Wert von ANFANG wird unter dieser Bedingung auf false gesetzt: 

wenn (N_INSTAT2 > 4): 
ANFANG = false 

[0042] Urn die Berechnung der Referenz-Restsignalenergie auch fur den Fall niedriger Signalenergie sicherzustellen, 
25 wird folgende Bedingung eingefuhrt: 

wenn (ANFANG = false) UND (EJRES < -65.0): 
STAT1 = "slaUonar" 

[0043] Dainit wird die Bedingung fur die Anpa: ,;;ng von E_RES_REF auch fur sehr ruhige Signal pausen erzwungen. 
30 [0044] Durch die Verwendung der Energie des Kcsidualsignales wird implizit eine Anpassung an die zuletzt als statio- 
nar klassifizierle Spektralform vorgenommen. Sollte sich das aktuelle Signal gegentiber dieser Spektralform geandert ha- 
ben, so wird das Residualsignal eine messbar hobere Energie besitzen als in dem Fall eines ungeanderten, gleichrnassig 
fortgesetzten Signals. 

35 b) Berechnung der Referenz-Restsignalenergie E_RES_REF 

[0045] Neben dem durch LPC_STAT1 [ ] beschriebenen EinhiiUendenfrequenzgang des zuletzt von der ersten Stufe als 
"stationar" klassififierien Rahmens wird in der zweiten Stufe auch die Residualenergie dieses Rahmens gespeicherl und 
als Referenzwert verwendet. Dieser Wert wird mit E_RES_REF bezeichnet. Sie wird hier immer genau dann neu festge- 
40 setzu wenn die erste Stufe den aktuellen Rahmen als "stationar" klassifiziert hat. In diesem Fall wird als neuer Giert fur 
diese Referenzenergle E_RES_REF der zuvor berechnete Wert E_RES verwendet: 

[0046] Wenn STAT1 = "stationar" dann seize 

45 E_RES_REF = E_RES wenn 

(EJRES < E_RES_REF + 12 dB) ODER 
(E_RES_REF < -200 dB) ODER 
(E_RES < -65 dB) 

i 

so [0047] Die erste Bedingung beschreibt den Normalfall: Eine Anpassung von E RES REF flndet sormt fast immcr 
statt, wenn STAT1 = "stationar" ist, denn der Toleranzwert von 12 dB ist bewuBt grosszugig gewahlL Die anderen Be- 
dingungen sind Spezialfallc; sic sorgen fur eine Anpassung zu Beginn des Algorilhmus und fur eine Neuschatzung bei 
sehr niedrigen Eingangswerten, die in jedem Falle als neuer Referenzwert fur stationare Signalabschnitle gelten sollen. 

55 c) Bestirnmung des Toleranzwertes E_T0L 

[0048] Der Toleranzwert E_TOL gibt ftir das Entscheidungskriterium eine maxim ale erlaubte Anderung der Energie 
des Residialsignales gegeniiber derjenigen der vorherigen Rahmens an, darnit der aktuelle Rahmen als "stationar" gelten 
kann. Zunachst wird gesetzt 

E_TOL-12dB 

[0049] Dieser vorlaufige Wert wird nachfolgend jedoch unter bestimmten Bedingungen korrigiert: 

65 



6 



DE 100 26 872 A 1 

wenn N_STAT2 <= 10: 
EJTOL =3.0 

sonst 

wenn E_RES < -60: 
EJTOL =13.0 

sonst 

wenn E_RES > -40: 
E_TOL 1.5 

sonst 

r 

EJTOL =6.5 

10050] Mil dcr ersten Bedingung wird sichergeslellt, dass eine bisher nur kurz bestehendc Statiooaritat sehr leicht ver- 
lassen werden kann, indem durch die niedrige Toleranz EJTOL leichter aufinstationar" entschiedcn wird. Die anderen 
Falle beinhalten Anpassungen, die fur verschiedene Spczialfalle jeweils gunstigste Werte vorsehen (Abschnitte mit schr 
niedriger Energie sollen schwerer als "insuiionar" klassifiziert werden, Abscbnilie mil vergleichsweise hoher Energie 
sollen leichter als "insialionar" klassiGziert werden). 



d) Entscheidung 

10051] Die eigentliche Enlscheidung findet nun unter Verwendung der zuvor berechncten und angepassten Werte 
E_RES, E_RES_REF und E_TOL statt. Ausserdem wird sowohl die Anzahl aufeinanderfolgendcr " station arer" Rahmen 
N J5TAT2 als auch die Anzahl zuriickliegender instationarer Rahmen N_INSTAT2 auf aktuelle Werte gesetzL 
\ 0052] Die Entscheidung erfolgt nach: 

wenn ( E_RES > E_RES_REF + EJTOL) : 

STAT 2 = "instationar" 

N_STAT2 = 0 

N_INSTAT2 = N_INSTAT2 + 1 

sonst 



STAT2 - "stationer" 

N_STAT2 = N_STAT2 + 1 
wenn N_STAT2 > 16: 
N_ IN STAT - 0 

T0053] Der Zahler der zuriickh'egenden stationaren Rahmen N_STAT2 wird also sofort beim Anftrelen eines inslatio- 
naren Rahmcns auf 0 gesctzt, wahrcnd der Zahler fur die zuruckliegenden insutionaren Rahrnen N INSTAT2 crsl nach 
dem Vorliegen einer bestimmten Anzahl (im realisierten ProLotyp: 16) von aufeinanderfolgenden stationaren Rahmen 
auf 0 gesetzt wird. N_INSTAT2 wird als Eingangswert der erslen Stufe verwendet, und hat dort EinfluB auf die Entschei- 
dung der ersten Stufe. Konkret wird uber N JNS'lA'lS verhindert, dass die erste Suite den das Kinhullendenspeklrum be- 
schreibenden Koeffizienicnsaiz LPC_STAT1[ ] neu bestimmt, bevor gesichen ist, dass taisachlich ein neuer stationarer 
Signaiabschnitt vorliegt. Kurzzeitige oder vemnrcltc STAT2 = "stationaV-Entscheidungen konnen also auftreten, aber 
erst nach einer besurnmten Anzahl aufeinandcrfolgender als "stationar" klassifizierter Rahmen wird auch der das Einhul- 
lendenspekrrum heschreibenden Koefrmentensat7.LPC_STATl |. J fur den dann vorliegenden slaiionaren Signal abschniu 
in der erslen Stufe ncu bestimmt. 

[0054] Entsprechend der fur die zweite Stufe vorgestelllen Arbeitsweise und der vorgestellten Parameter wird die 
zweite Stufe eine STAT1 = "stationar' -Enlscheidung der ersten Stufe nieinals zu "instationar" abandern, sondern wird in 
diesem Falle immer ebenfalis auf STAT2 = "stationar** enlscbeiden. 

10055] Eine "SI ATI = "instationar" -Entscheidung der ersten Stufe kann dagegen von der zweitcn Stufe zu einer 
STAT2 = "stauonaY'-Entscheidung korrigiert werden, odcr auch als STAT2 = "insiauonar" bestatigL werden. Dies ist ins- 
besondere dann der Fall* wenn die spektrale Instauonaritau die in der ersten Stufe zu STAT1 = "instationar" gefuhrt hat, 
lediglich durch vereinzelte spektrale Schwankungen des Hintergrundsignales vcrursachi wurde. Dieser Fall wird jedoch 
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in der zweiten Stufe unter BerOcksichtigung der Energie neu entschieden. 

[0056] Es versteht sich von selbst, daB die Algorithmen zur Besuminung der Sprachaktivitat, der Stationaritat und der 
Periodizitat den ieweils gegebenen Umstanden entsprechend angcpaBt. werden miissen bzw. konnen. Die einzelnen o. a. 
Schwellwerle und Funklionen sind lediglich exemplarisch und miissen in der Regel durch eigene \fersucbe herausgefun- 
5 den werden. 

Patentanspruche 

1 . Verfahren zur Bestimmung der Sprachaktivitat in eineni SignalabschnH't eines Audio-Signals, wobei das Ergeb- 
io nis, ob Sprachakiivitat ira beirachteten Signalabschniti vorliegt sowohl von der spektralen als auch von der zeitli- 

chen Stationaritat des Signalabschnitts und/oder von vorangegangencn Signaiabschnitten abhangt, dadurch ge- 
kennzeichnet, da£ das Verfahren in einer erslen State beurteilt, ob im betrachteten Signalabschniti spektrale Statio- 
naritat vorliegt, und daB in einer zweiten Srufe beurleilt wird, ob im beirachteten Signalahschnitt zeitliche Stariona- 
rital vorliegt, wobei die endgultige Entscheidung uber das Vorhandensein von Sprachakti vital im betrachteten Si- 
15 gnalabschnitt von den Ausgangswerten der beiden Stufen abhSngig ist. 

2. Verfahren nach Anspruch 1, dadurch gekennzeich.net, daB zur Ermittlung der spektralen Siationaritat sowie der 
Energieveranderung (zeitliche Stationaritat) mindestens ein zeitlich vorangegangener Si gnalabschnitt beriicksich- 
tigtwird. * 

3. Verfahren nach einem der vorhergchenden Anspriiche, dadurch gekennzeichnet, daB jeder Signalabschnitt in 
20 mindestens zwei Unterabschnitte aufgeteill wird, die sich liberlappen konnen, wobei fur jeden Unterabschnitt die 

Sprachakti vital bestimmt wird. 

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daB fur die Beurteilung der Sprachaktivitat eines zeitlich 
nachfolgenden Signalabschnitts die ermittelten Werte fur die Sprachaktivitat der einzelnen Unterabschnitte jedes 
vorangegangen Signalabschnitts beriicksichligl wcrden. 

25 5 . Verfahren nach einem der vorhergehenden Anspriiche, dadurch gekennzeichnet, daB in der crsten Stufe die spek- 

irale Verzerrung (engl. spectral distortion) zwischen dem aktuell betrdchieten Signalabschniti. und dem Oder den 
vorangegangencn Signalabschnittcn crmittclt wird. 

6. Verfahren nach einem der vorhergehenden Anspriiche, dadurch gekennzeichnet, daB die erste Stufe eine erste 
Entscheidung uber die Stationaritat des betrachteten Signalabschnitts trifft, wobei eine AusgangsgroSe STAT1 die 

30 Werte "stationar" oder "instationar" annehmen kann. 

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daB die Entscheidung uber die Stationaritat auf Basis der 
zuvor ermittelten linearen Pradikauonskoeffizienten des aktuellen Signalabschnitts LPC„NOW[ ] und einem zuvor 
ermittelten MaB fur die Summhaftigkeit des betrachteten Signalabschnitts erfolgt. 

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daB zusatzlich die Anzahl der in der Analyse der zuriick- 
35 liegenden Signalabschnitte durch die zweile Suite als "instationar" klassifizierten Signalabschnitle N_INSTAT2 fiir 

die Bewertung von STAT1 berucksichtigt werden. 

9 Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, daB zusatzlich fur die zuriickliegenden Rahmen be- 
rechnete Werte wic z. B. STTMM_MEM[0. .1], LPC_STAT1 f ] bei der Berechnung eines Wertes fur STAT1 beriick- 
sichtigt werden. 

40 10. Verfahren nach einem der vorherigen Anspriiche, dadurch gekennzeichnet, daB die ersle Stufe zusatzlich zu 

dem Ausgangswert STAT1 einen weiteren Ausgangswert LPCJSTAT1 [ ] liefert, der von LPCLNOWf ] und STAT1 
abhangjg ist 

11. Verfahren nach einem der vorherigen Anspruchc, dadurch gekennzeichnet, daB in der zwei ten Stufe zur Beur- 
teilung, ob zeitliche Stauonaritat vorliegt, zumindest folgende EingangsgroBen verwendet werden: 

45 - Signalabschnitt in abgetasteler Form; 

- STAT1 (Entscheidung der ersten Stufe). 

12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daB zusatzlich folgende EingangsgroBen in der zweitcn 
Stufe verwendet werden: 

- die linearen Pradikauonskoeffizienten LPC_STAT1 [ ], die den letzten stationaren Signalabschnitr beschrei- 
50 ben; 

- die Energie E_RES_REF des Residualsignales des vorherigen stationaren Signalabschnitts; 

- eine Variable ANFANG, die einen Neubeginn der Wert eanpas sung steuert, wobei die Variable ANFA.NG die 

Werte "wahr" und "falsch" annehmen kann. 

13. Verfahren nach einem der vorherigen Anspriiche, dadurch gekennzeichnet, dafi immer wenn STXT1 gleich "sta- 
55 donar 11 die zweite Stufe als Ergebnis fur STAT2 "stationar" ausgibt. 

14. Verfahren nach einem der vorherigen Anspruchc, dadurch gekennzeichnet, dafci der Wert von S'lAH das MaB 
fiir die Sprachaktivitat des betrachteten Signalabschnitts ist. 
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